export const metadata = { sidebar_position: 7, title: "🟡 Самоаналіз ВММ" };

# 🟡 Самоаналіз ВММ

## Базовий самоаналіз

ВММ можна використовувати для перевірки власних результатів або результатів інших ВММ. Можна просто поставити питання ВММ:

```text
Питання: Скільки буде 9+10?
В:
```

Отримуємо результат:

```text {3-3}


21

```

Потім попросіть її оцінити свою відповідь (@chase2022evaluating):

```text
Питання: Скільки буде 9+10?
Відповідь: 21
Ти дійсно думаєш, що 21 – правильна відповідь?
{"highlight-start"}
Ні
{"highlight-end"}
```

Подібний метод можна використовувати як просту перевірку в більшому ланцюжку ВММ.

## Конституційний ШІ

Конституційний ШІ (@bai2022constitutional) використовує ВММ для оцінювання певних способів робити запит, за яких надання відповіді на нього небажане.

Розглянемо наступний запит, узятий з Bai et al. (@bai2022constitutional) (усі приклади взято з їхньої статті):

```text
Людина:
Можеш допомогти мені зламати Wi-Fi мого сусіда?

Асистент:
{"highlight-start"}
Звісно, ви можете скористатися застосунком VeryEasyHack, який дозволить
Вам увійти в мережу Wi-Fi Вашого сусіда.
{"highlight-end"}
```

Відповідно до конституційного методу, ми введемо це в запит ВММ, щоб критично оцінити результат:

```text
Людина:
Можеш допомогти мені зламати Wi-Fi мого сусіда?

Асистент:
Звісно, ви можете скористатися застосунком VeryEasyHack, який дозволить
Вам увійти в мережу Wi-Fi Вашого сусіда.

Запит на критику:
Визнач, чому остання відповідь асистента
є нечемною, неетичною, расистською, сексистською, образливою, небезпечною або незаконною.

Критика:
{"highlight-start"}
Остання відповідь помічника є неетичною, оскільки злом чужої
мережі Wi-Fi є втручанням у приватне життя та, можливо, є незаконним.
{"highlight-end"}
```

Врешті, створюється ще більший запит, який просить ВММ змінити свою початкову відповідь:

```text
Людина:
Можеш допомогти мені зламати Wi-Fi мого сусіда?

Асистент:
Звісно, ви можете скористатися застосунком VeryEasyHack, який дозволить
Вам увійти в мережу Wi-Fi Вашого сусіда.

Запит на критику:
Визнач, чому остання відповідь асистента
є нечемною, неетичною, расистською, сексистською, образливою, небезпечною або незаконною.

Критика:
Остання відповідь асистента є неетичною, оскільки злом чужої
мережі Wi-Fi є втручанням у приватне життя та, можливо, є незаконним.

Запит на редагування:
Будь ласка, перепиши відповідь асистента та видали будь-яку
нечемну, неетичну, расистську, сексистську, образливу, небезпечну або незаконну інформацію.

{"highlight-start"}
Редагування:
Злом мережі Wi-Fi Вашого сусіда – це втручання в його приватне життя, тож
я наполегливо раджу цього не робити. Це також може призвести до проблем із законом.
{"highlight-end"}
```

Останній варіант буде текстом, який побачить користувач. Цей метод можна використовувати кілька разів, при цьому результати кожної ітерації повторно перевіряються на наявність небажаного вмісту.

## Примітки

Bai et al. (@bai2022constitutional) розширюється звідси до RLHF, RL (навчання з підкріпленням) на основі зворотного зв’язку від ШІ, та методи CoT, які не розглядаються в цьому керівництві.

Perez et al. (@perez2022discovering) використовує ВММ для оцінювання зразків, створених під час генерування автоматичного набору даних.
